ETL فرایند واکشی اطلاعات از سیستم های اطلاعاتی، تبدیل و بارگزاری در .انباره داده است. برای انبار داده، ما داده های مفیدی که ارزش تحلیلی دارند را از سیستم های اطلاعاتی مختلف استخراج می کنیم. این داده های خام نیاز به پالایش دارند و باید ساختار آنها به گونه ای که با انبار داده و تحلیل کسب و کار متناسب باشد، تغییر کند. این تغییر شامل تغییر نوع و مقدار و ترکیب و یا جداسازی دادهاست. همچنین با توجه به اینکه امکان اشتباه بودن یا نامعتبر بودن برخی دادهها در سیستم هایاطلاعاتی وجود دارد، باید داده های استخراج شده را در طی فرایندی پالایش (Data Cleansing) کرد و اطلاعاتی که باعث بروز اشتباه میشوند را حذف کرد و یا تغییر داد. در این فاز بررسی صحت دادهها (Data Validation) و مقایسه با سیستمهای عملیاتی صورت میپذیرد. پس از این مراحل داده ها در انبار داد ه (Data Warehouse) بارگزاری میشوند.
پس ETL فرایندی است که در آن داده ها:
- از منابع مختلف استخراج و جمع آوری میشوند، (Extract)
- مطابق با کسب و کار پالایش میشوند(Transform)
در این مرحله از عملگرهای مختلفی مانند فیلتر، مرتب سازی (Sorting)، تجمیع (Aggregate)، اتصال(joining)، پاکسازی داده (Cleaning Data)، حذف دادههای یکسان (Deduplicating) و اعتبارسنجی داده ها (Data Validation) استفاده میکنیم.
- در نهایت در یک منبع داده ذخیره میشوند. (Load)
چگونه فرایند ETL را انجام دهیم؟
در طی سالیان مختلف ابزارها، سرویسها و فرایندهای مختلفی توسعه یافته اند تا سازمان ها با چالش داده ای خود کنار بیایند. برای نمونه اگر قصد داریم که یک پروژه مصور سازی داده را با P owe BI انجام دهیم، با استفاده از کامپونت power query، فرایند ETL به صورت کامل روی داده ها انجام میشود. سرویس یکپارچهسازی SQL Server (SSIS) و زبان TSQL نیز به ما در فرایند ETL کمک خواهد کرد. زبانهای برنامه نویسی مثل پایتون و Rنیز در فاز پالایش داده میتوانند استفاده شوند.
چراETL مهم است؟
هر سازمانی چه در ابعاد بزرگ و چه در ابعاد کوچک ، منابع دادهای متفاوتی دارد. در فاز Extract در ETL، دادههای خام از منابع مختلفی (مانند نرم افزارهای CRM، نرم افزارهای حسابداری، سامانههای تحلیل داده) استخراج میشوند. قبل از اینکه دادهها در سامانه نهایی (که معمولا انبار داده است) ذخیره شوند، پالایش میشوند تا در یک فرمت مناسب برای کوئری نویسی و تحلیل اطلاعات قرار بگیرند. مدت زیادی است که کسب وکارها از فرایند ETL استفاده میکنند تا دید درستی از داده ها داشته باشند و بتوانند با استفاده از دادهها و بینش استخراج شده از آنها در تصمیمگیریها عملکرد بهتری داشته باشند.
از طرفی نباید این نکته را از یاد برد که یکی از مراحل پیاده سازی هوش کسب و کار (BI)، در هر سازمانی ETL است.
در اغلب مواقع هر سه فاز ETL به صورت موازی انجام میشوند تا در زمان صرفه جویی شود. برای نمونه وقتیکه داده ها در حال استخراج هستند، فرایند پالایش روی داده هایی که استخراج شده اند قابل انجام است. همچنین درحالیکه داده ها در حال پالایش هستند، بخشی از داده ها که پالایش شده اند، قابل بارگزاری هستند.
|
امتیاز مطلب : 138
|
تعداد امتیازدهندگان : 30
|
مجموع امتیاز : 30